智能论文笔记

MoralDial: A Framework to Train and Evaluate Moral Dialogue Systems via Constructing Moral Discussions

Hao Sun , Zhexin Zhang , Fei Mi , Yasheng Wang , Wei Liu , Jianwei Cui , Bin Wang , Qun Liu , Minlie Huang

分类：自然语言处理

2022-12-21

Morality in dialogue systems has raised great attention in research recently. A moral dialogue system could better connect users and enhance conversation engagement by gaining users' trust. In this paper, we propose a framework, MoralDial to train and evaluate moral dialogue systems. In our framework, we first explore the communication mechanisms of morality and resolve expressed morality into four sub-modules. The sub-modules indicate the roadmap for building a moral dialogue system. Based on that, we design a simple yet effective method: constructing moral discussions from Rules of Thumb (RoTs) between simulated specific users and the dialogue system. The constructed discussion consists of expressing, explaining, and revising the moral views in dialogue exchanges, which makes conversational models learn morality well in a natural manner. Furthermore, we propose a novel evaluation method in the framework. We evaluate the multiple aspects of morality by judging the relation between dialogue responses and RoTs in discussions, where the multifaceted nature of morality is particularly considered. Automatic and manual experiments demonstrate that our framework is promising to train and evaluate moral dialogue systems.

translated by 谷歌翻译

Traffic Analytics Development Kits (TADK): Enable Real-Time AI Inference in Networking Apps

Kun Qiu , Harry Chang , Ying Wang , Xiahui Yu , Wenjun Zhu , Yingqi Liu , Jianwei Ma , Weigang Li , Xiaobo Liu , Shuo Dai

分类：人工智能

2022-08-16

复杂的流量分析，例如加密的流量分析和未知的恶意软件检测，强调需要进行高级方法来分析网络流量。使用固定模式，签名匹配和检测网络流量中已知模式的规则的传统方法已被AI（人工智能）驱动算法取代。但是，缺乏高性能AI网络特定的框架使得不可能在网络工作负载中部署基于AI的实时处理。在本文中，我们描述了流量分析开发工具包（TADK）的设计，这是一个针对基于AI的网络工作负载处理的行业标准框架。 TADK可以在数据中心到边缘的网络设备中基于实时的AI网络工作负载处理，而无需专门硬件（例如GPU，神经处理单元等）。我们已经在商品WAF和5G UPF中部署了TADK，评估结果表明，Tadk可以在流量功能提取时达到每个核心最多35.3Gbps的吞吐量，每核6.5Gbps在流量分类中，并且可以减少SQLI/XSS检测到下降至4.5us每个请求的精度比固定模式解决方案更高。

translated by 谷歌翻译

CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation

Jianwei Lin , Jiatai Lin , Cheng Lu , Hao Chen , Huan Lin , Bingchao Zhao , Zhenwei Shi , Bingjiang Qiu , Xipeng Pan , Zeyan Xu

分类：计算机视觉

2022-07-15

磁共振图像（MRI）中的脑肿瘤分割（BTS）对于脑肿瘤诊断，癌症管理和研究目的至关重要。随着十年小型挑战的巨大成功以及CNN和Transformer算法的进步，已经提出了许多出色的BTS模型来解决BTS在不同技术方面的困难。但是，现有研究几乎没有考虑如何以合理的方式融合多模式图像。在本文中，我们利用了放射科医生如何从多种MRI模态诊断脑肿瘤的临床知识，并提出了一种称为CKD-TRANSBTS的临床知识驱动的脑肿瘤分割模型。我们没有直接串联所有模式，而是通过根据MRI的成像原理将输入方式分为两组来重新组织输入方式。具有拟议模态相关的跨意义块（MCCA）的双支支混合式编码器旨在提取多模式图像特征。所提出的模型以局部特征表示能力的能力来继承来自变压器和CNN的强度，以提供精确的病变边界和3D体积图像的远程特征提取。为了弥合变压器和CNN功能之间的间隙，我们提出了解码器中的反式和CNN功能校准块（TCFC）。我们将提出的模型与五个基于CNN的模型和六个基于Transformer的模型在Brats 2021挑战数据集上进行了比较。广泛的实验表明，与所有竞争对手相比，所提出的模型可实现最先进的脑肿瘤分割性能。

translated by 谷歌翻译

MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with Multimodal Fine-grained Aligned Annotations

Hao Yang , Yanyan Zhao , Jianwei Liu , Yang Wu , Bing Qin

分类：自然语言处理

2022-06-28

多模式的细粒情感分析最近由于其广泛的应用而引起了人们的关注。但是，现有的多模式细颗粒情感数据集最关注注释文本中的细粒元素，但忽略图像中的元素，这导致视觉内容中的细粒度元素没有得到应有的全部关注。在本文中，我们提出了一个新的数据集，即多模式方面类别情感分析（MACSA）数据集，其中包含超过21k的文本图像对。该数据集为文本和视觉内容提供细粒度的注释，并首先将方面类别用作枢轴，以对齐两种模态之间的细粒元素。基于我们的数据集，我们提出了多模式ACSA任务和基于多模式的对齐模型（MGAM），该模型（MGAM）采用了细粒度的跨模式融合方法。实验结果表明，我们的方法可以促进基线比较，以实现该语料库的未来研究。我们将使数据集和代码公开可用。

translated by 谷歌翻译

SARNet: Semantic Augmented Registration of Large-Scale Urban Point Clouds

Chao Liu , Jianwei Guo , Dong-Ming Yan , Zhirong Liang , Xiaopeng Zhang , Zhanglin Cheng

分类：计算机视觉

2022-06-27

由于激光雷达扫描数据的大规模，噪音和数据不完整，注册Urban Point Clouds是一项艰巨的任务。在本文中，我们提出了SARNET，这是一个新型的语义增强注册网络，旨在在城市规模上实现有效的城市点云的注册。与以前仅在点级空间中构建对应关系的方法不同，我们的方法完全利用语义特征来提高注册精度。具体而言，我们提取具有高级语义分割网络的每点语义标签，并构建先前的语义零件到部分对应关系。然后，我们将语义信息纳入基于学习的注册管道中，该管道由三个核心模块组成：基于语义的最远点采样模块，以有效地滤除异常值和动态对象；一个语义增强的特征提取模块，用于学习更多的判别点描述符；语义改制的转换估计模块，该模块利用先前的语义匹配作为掩码，通过减少错误匹配以更好地收敛来完善点对应关系。我们通过使用来自城市场景的大区域的现实世界数据并将其与替代方法进行比较，从而广泛评估所提出的SARNET。该代码可在https://github.com/wintercodeforeverything/sarnet上找到。

translated by 谷歌翻译

Cross-Silo Federated Learning: Challenges and Opportunities

Chao Huang , Jianwei Huang , Xin Liu

分类：机器学习 | 人工智能

2022-06-26

联合学习（FL）是一项新兴技术，可在保持数据分布和私密的同时向多个客户培训机器学习模型。根据参与的客户和模型培训量表，可以将联合学习分为两种类型：跨设备FL，客户通常是移动设备，客户编号可以达到数百万的规模；客户是组织或公司，并且客户编号通常很小（例如，一百之内）。尽管现有研究主要集中于跨设备FL，但本文旨在提供跨索洛FL的概述。更具体地说，我们首先讨论了交叉Silo FL的应用，并概述了其主要挑战。然后，我们通过关注与跨设备FL的联系和差异，对Cross-Silo FL挑战的现有方法进行系统的概述。最后，我们讨论了未来的方向和开放问题，值得社区的研究工作。

translated by 谷歌翻译

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

Chunyuan Li , Haotian Liu , Liunian Harold Li , Pengchuan Zhang , Jyoti Aneja , Jianwei Yang , Ping Jin , Yong Jae Lee , Houdong Hu , Zicheng Liu

分类：计算机视觉 | 自然语言处理 | 机器学习

2022-04-19

从自然语言监督中学习视觉表示，最近在许多开创性的作品中表现出了巨大的希望。通常，这些具有语言的视觉模型表现出对各种数据集和任务的强大可传递性。但是，由于缺乏易于使用的评估工具包和公共基准，评估这些模型的可转让性仍然很具有挑战性。为了解决这个问题，我们构建了高级版（评估语言的视觉任务级传输），这是用于评估（预训练）语言增强视觉模型的第一个基准和工具包。升华由三个组成部分组成。（i）数据集。作为下游评估套件，它由20个图像分类数据集和35个对象检测数据集组成，每个数据集都用外部知识来增强。（ii）工具包。开发了自动高参数调谐工具包，以促进下游任务的模型评估。（iii）指标。多种评估指标用于测量样品效率（零射击和少量）和参数效率（线性探测和完整模型微调）。我们在https://computer-vision-in-the-wild.github.io/elevater/上公开发布leverater

translated by 谷歌翻译

Low-bit Quantization of Recurrent Neural Network Language Models Using Alternating Direction Methods of Multipliers

Junhao Xu , Xie Chen , Shoukang Hu , Jianwei Yu , Xunying Liu , Helen Meng

分类：机器学习

2021-11-29

经常性神经网络语言模型（RNNLMS）的高存储器消耗和计算成本限制了它们对资源受限设备的更广泛的应用。近年来，能够产生极低比特压缩的神经网络量化技术，例如二值化的RNNLMS正在获得增加的研究兴趣。直接培训量化神经网络是困难的。通过将量化的RNNLMS培训作为优化问题的制定，使用乘法器（ADMM）的交替方向方法从头开始训练量化RNNLMS的新方法。使用捆绑的低比特量化表，此方法还可以灵活地调整压缩率和模型性能之间的权衡。两项任务的实验：Penn TreeBank（PTB）和交换机（SWBD）建议所提出的ADMM量化在全精密基线RNNLMS上实现了高达31次的模型尺寸压缩因子。还获得了在基线二值化RNNLM量化上模型训练中的5倍的更快收敛性。索引项：语言模型，经常性神经网络，量化，乘法器的交替方向方法。

translated by 谷歌翻译

Florence: A New Foundation Model for Computer Vision

Lu Yuan , Dongdong Chen , Yi-Ling Chen , Noel Codella , Xiyang Dai , Jianfeng Gao , Houdong Hu , Xuedong Huang , Boxin Li , Chunyuan Li

分类：计算机视觉 | 人工智能 | 机器学习

2021-11-22

自动视觉解对我们多样化和开放的世界需要计算机视觉模型，以概括为特定任务的最小定制，类似于人类视力。计算机视觉基础型号培训，培训多样化，大型数据集，可以适应各种下游任务，对该任务来解决现实世界计算机视觉应用而言至关重要。虽然现有的视觉基础模型如剪辑，对齐和吴道2.0主要集中在映射图像和文本表示到跨模型共享表示，我们介绍了一台新的计算机视觉基础模型，佛罗伦萨，扩大粗糙的表示（现场）到精细（对象），从静态（图像）到动态（视频），以及从RGB到多个模态（标题，深度）。通过从Web级图像文本数据中纳入通用视觉语言表示，我们的佛罗伦萨模型可以很容易地适应各种计算机视觉任务，例如分类，检索，对象检测，VQA，图像标题，视频检索和动作识别。此外，佛罗伦萨在许多类型的转移学习中表现出出色的表现：全面采样的微调，线性探测，几次射击传输和用于新颖图像和物体的零拍摄传输。所有这些属性对于我们的视觉基础模型至关重要，以提供通用视觉任务。佛罗伦萨实现了新的最先进的导致44个代表性基准，例如Imagenet-1K零射击分类，最高1精度为83.74，最高5个精度为97.18，62.4地图上的Coco微调， 80.36在VQA上，动力学-600上的87.8。

translated by 谷歌翻译

Visformer: The Vision-friendly Transformer

Zhengsu Chen , Lingxi Xie , Jianwei Niu , Xuefeng Liu , Longhui Wei , Qi Tian

分类：计算机视觉

2021-04-26

过去一年目睹了将变压器模块应用于视力问题的快速发展。虽然一些研究人员已经证明，基于变压器的模型享有有利的拟合数据能力，但仍然越来越多的证据，表明这些模型尤其在训练数据受到限制时遭受过度拟合。本文通过执行逐步操作来提供实证研究，逐步运输基于变压器的模型到基于卷积的模型。我们在过渡过程中获得的结果为改善视觉识别提供了有用的消息。基于这些观察，我们提出了一个名为VIRFormer的新架构，该体系结构从“视觉友好的变压器”中缩写。具有相同的计算复杂度，在想象集分类精度方面，VISFormer占据了基于变压器的基于卷积的模型，并且当模型复杂性较低或训练集较小时，优势变得更加重要。代码可在https://github.com/danczs/visformer中找到。

translated by 谷歌翻译